Les kits ADN à domicile sont-ils réellement bénéfiques pour la santé de votre bébé ?


Nombres, faits et tendances façonnant votre monde Centers de la recherche de PEW 5 juin 2019
Les chercheurs du Centre de recherche sur Pew ont utilisé un processus à plusieurs niveaux pour produire les conclusions de cette étude. Ces étapes incluaient:
Les chercheurs ont également effectué une analyse exploratoire pour l'un des modèles générés pour l'étude à l'aide d'une technique appelée occlusion d'image. Chacune de ces étapes est discutée plus en détail ci-dessous.
Les données de ce projet proviennent de diverses sources. Nous avons tiré sur sept jeux de données distincts d'images (corares) et ont généré un huitième composé d'un mélange de chacun des sept. Pour rassembler ces données, nous avons localisé les jeux de données existants utilisés par les chercheurs pour une analyse d'image. Ceux-ci incluent les données «étiquetées dans le Wild» (LFW) et «Bainbridge 10k U.S. Adult Face». Nous avons également téléchargé des images de politiciens brésiliens d'un site qui héberge des résultats d'élection au niveau municipal.
Les chercheurs du centre ont également créé des listes originales de célébrités appartenant à différents groupes minoritaires et ont collecté 100 images pour chaque individu. La liste des célébrités minoritaires s'est concentrée sur des personnes noires et asiatiques célèbres. La liste des célébrités noires comprend 22 personnes: 11 hommes et 11 femmes. La liste des célébrités asiatiques comprend 30 personnes: 15 hommes et 15 femmes. Nous avons répété cette procédure avec une liste de 21 personnes âgées de célébrités (11 hommes et 10 femmes) pour incorporer des images d'individus plus âgés.
Nous avons ensuite compilé une liste des 100 pays les plus peuplés et téléchargés jusqu'à 100 images d'hommes et de femmes pour chaque combinaison de sexes à la nation, respectivement (par exemple, «français»). Les chercheurs isolés des visages des individus d'images comprenant plusieurs personnes et ont supprimé des résultats non pertinents, flous ou masqués. Pour plus de détails sur ce processus de collection, lisez la méthodologie du rapport "Genre et emplois dans les recherches d'images en ligne", qui utilisaient un modèle formé sur ces données.
Nous avons utilisé une méthode appelée «transfert d'apprentissage» pour former chaque modèle de classification de genre plutôt que d'utiliser des méthodes de vision de la machine développées par un fournisseur extérieur. Cette méthode réutilise des informations provenant des réseaux de neurones profonds existants ou «préparés» pour accélérer le processus de formation (ce processus est décrit plus en détail ci-dessous). Pour générer l'analyse utilisée dans cette étude, nous avons compilé des résultats d'un total de 2 400 modèles d'apprentissage profond. Pour chacun des huit ensembles de données image source, 300 modèles ont été estimés. Chaque modèle est basé sur un échantillon aléatoire à partir d'une image de données d'image source, chaque itération du modèle a donc été formée à un mélange différent de faces à partir de cette source d'image de source.
Au total, 10 906 images ont été utilisées sur les huit jeux de données. Nous avons divisé les données en différents ensembles pour la formation et les tests - composé de 8 428 et 2 478 images respectivement.
Pour former chaque modèle, nous avons attiré des mélanges d'images de faces individuelles de chacun des jeux de données source, mais obligeait que le nombre total d'images soit identique et la distribution de genre à être égale. Chaque modèle a été formé avec 1 204 images échantillonnées de faces - 602 hommes et 602 femmes. Chaque ensemble d'entraînement a été échantillonné à partir de l'une des sept collections énumérées ci-dessus ou d'un mélange de tous les ensembles de données source. La même image pourrait être échantillonnée à plusieurs reprises. Chaque ensemble de formation pour un modèle formé sur un mélange de sources de données contenait 172 images de faces de chacun des jeux de données source - 86 hommes et 86 femmes.
La performance pour chaque modèle a été obtenue en mesurant sa précision sur chaque image dans les données de test. Chacun des modèles a été testé sur le même ensemble de données composé d'un mélange aléatoire et équilibré sur le sexe de 2 478 images de faces des sept jeux de données énumérés ci-dessus. Les chercheurs ont utilisé 354 images de chaque collection, 177 des hommes et 177 de femmes.
Pour générer les classificateurs d'image utilisés dans cette étude, l'équipe de recherche s'est appuyée sur l'apprentissage de transfert, qui consiste à recycler de grands réseaux de neurones préparés (classe populaire de modèles d'apprentissage automatique) pour des tâches de classification plus spécifiques. L'avantage de cette technique était que les couches inférieures des réseaux de neurones préparés contenaient souvent des caractéristiques utiles sur de nouvelles tâches de classification d'image. Les chercheurs pouvaient donc s'appuyer sur ces fonctionnalités sans partir de zéro. Plus précisément, les chercheurs ont réutilisé ces couches inférieures préparées et ont précisé les couches supérieures pour leur application spécifique - dans ce cas, la tâche de classification des sexes. Lisez ce message sur le blog décodé du Centre pour plus de détails.
Les chercheurs de réseau prétentieux spécifiques utilisés étaient VGG16, mis en œuvre dans la popularité de l'apprentissage en profondeur Python Python Keras. L'architecture du réseau VGG a été introduite par Karen Simonyan et Andrew Zisserman dans leur document de 2014 «Réseaux de convolutionnels très profonds pour une reconnaissance d'images à grande échelle». Le modèle est formé à l'aide d'Imagenet, qui compte plus de 1,2 million d'images et 1 000 catégories d'objets. VGG16 contient 16 couches de poids qui incluent plusieurs couches convolutionnelles et entièrement connectées. Le réseau VGG16 a atteint une précision de 90% de 5% dans la classification Imagenet.
Les chercheurs ont commencé avec l'architecture classique du réseau neuronal VGG16 comme base, a ensuite ajouté une couche entièrement connectée, une couche d'abandon et une couche de sortie. L'équipe a mené deux tours de formation pour chaque modèle: une pour les couches ajoutées à la tâche de classification des sexes (le modèle personnalisé) et une pour les couches supérieures du modèle de base VGG.
Les chercheurs n'ont pas permis de mettre à jour les poids de base VGG lors du premier tour de formation et de la formation restreinte au cours de cette phase aux couches supérieures personnalisées. Les poids des nouvelles couches ont été initialisés de manière aléatoire, alors la congélation des poids de base empêchaient les informations qui les contenaient d'être détruites. Après 20 époques d'entraînement sur le modèle personnalisé, l'équipe se situe à quatre couches supérieures de la base VGG et a commencé une deuxième série de formation. Pour la deuxième série de formation, des chercheurs ont mis en place une fonction d'arrêt précoce. Arrêt anticipé vérifie la progression de la perte de modèle (ou du taux d'erreur) lors de la formation et s'arrête la formation lorsque la valeur de la perte de validation cesse de s'améliorer. Cela sert à la fois d'orthone et conserve le modèle de survoler les données de formation.
Pour aider le système à apprendre, les chercheurs ont ajouté une étape pour manipuler ou augmenter légèrement chaque image de formation avant que le système ne le voie. Cette manipulation comprenait zoomer, couper les côtés et rotation de chaque image de sorte que le système n'apprendrait pas sur la manière dont les images étaient composées, ou sur la base des bizarreries dans les images de formation, telles que si les visages des femmes apparaissent très proches. à d'autres personnes dans les images. La manipulation a été faite de manière aléatoire, imprévisible, de sorte que même si le système a reçu la même image deux fois, cela n'aurait pas l'air identique à chaque fois. Cette étape a empêché le système d'apprendre le sexe basé sur la composition photo.
Nous avons collecté les résultats des modèles sur les données de test de manière à ce que chaque ligne correspondait au résultat d'un modèle sur une seule image. Nous avons calculé la précision moyenne de chaque modèle par sexe. Nous avons ensuite utilisé des modèles de régression des moindres carrés multiles à plusieurs courages pour estimer la précision d'un modèle donné conditionné sur le jeu de données source utilisé pour la formation et le sexe de l'individu dans l'image.
Afin de créer les estimations et les erreurs standard pour la précision dans l'essai principal, nous avons calculé les prévisions de modèle. Les tables affichent les estimations de la précision ordinaires des moindres carrés basées sur l'ensemble de données source utilisée pour la formation, le sexe de l'individu dans l'image et l'effet multiplicatif de la source de données et le sexe de l'individu dans l'image.
Dans l'interactif, nous utilisons une méthode que nous appelons "occlusion" pour avoir un sentiment de ce que le modèle se déroule sans plonger dans des mathématiques compliquées. Comme démontré dans l'interactif, cette méthode consiste à couvrir une partie ("occlusion") d'une image et d'avoir un modèle reclassifier l'image occluse. Nous couvrons systématiquement chaque partie de chaque image en déplaçant la section occluse sur l'image, après une grille. Cela nous permet de cartographier les régions qui, lorsqu'elles sont couvertes, peuvent modifier la classification du modèle d'une image.
Dans cet interactif, nous utilisons l'un des modèles formés au processus décrit ci-dessus et inclus dans l'analyse principale. Plus précisément, nous utilisons le modèle formé sur des images à partir de toutes les sept sources de données qui ont atteint la précision globale maximale de 90%. L'exception à ceci est la démonstration avant de commencer l'interactif, qui a utilisé un modèle différent.
En période d'incertitude, de bonnes décisions exigent de bonnes données. Veuillez soutenir nos recherches avec une contribution financière.
À propos du Centre de recherche sur Pew Centre de recherche sur Pew est un réservoir de fait non étagère qui informe le public sur les problèmes, les attitudes et les tendances qui façonnent le monde. Il mène des sondages d'opinion, des recherches démographiques, une analyse de contenu des médias et une autre recherche sur la science sociale empirique. Le Centre de recherche sur Pew ne prend pas de postes de politique. C'est une filiale des fiducies de charité de pew.

https://www.youtube.com/watch?v=8Swy87mh6YM